การเพิ่มประสิทธิภาพเชิงเว้า: จากความน่าจะเป็นทางสถิติไปสู่โปรแกรมเชิงเว้า

การอนุมานทางสถิติถามว่า: "เมื่อมีข้อมูลนี้แล้ว พารามิเตอร์ที่แท้จริงที่เป็นไปได้มากที่สุดคืออะไร?" สไลด์นี้เชื่อมโยงคำถามนี้กับ การเพิ่มประสิทธิภาพเชิงเว้า. เราเปลี่ยนแนวคิดทางความน่าจะเป็นของความน่าจะเป็นให้กลายเป็นโปรแกรมที่มีโครงสร้าง โดยแสดงว่าภายใต้เงื่อนไขของความเว้าในลอการิธึม (log-concavity) การหาค่าประมาณที่ดีที่สุดจะเทียบเท่ากับการแก้ปัญหาการเพิ่มประสิทธิภาพเชิงเว้า

กรอบแนวคิดของความน่าจะเป็น

ฟังก์ชัน ความน่าจะเป็น คือการแจกแจงความน่าจะเป็น $p_x(y)$ ที่พิจารณาเป็นฟังก์ชันของพารามิเตอร์ $x$ เมื่อตัวอย่างที่สังเกตได้ $y$ ถูกกำหนดไว้ ในการประมาณค่า $x$ เราใช้ การประมาณค่าแบบสูงสุดของความน่าจะเป็น (ML): เลือกค่าที่ทำให้ข้อมูลที่สังเกตได้มีความน่าจะเป็นสูงสุด

$$\hat{x}_{ml} = \text{argmax}_x p_x(y) = \text{argmax}_x l(x)$$

เพื่อความรวดเร็วในการคำนวณ เราใช้ ฟังก์ชันความน่าจะเป็นลอการิธึม, $l(x) = \log p_x(y)$ เนื่องจากลอการิธึมเป็นฟังก์ชันที่เพิ่มขึ้นอย่างต่อเนื่อง มันจะคงตำแหน่งของค่าสูงสุดไว้ ในขณะเดียวกันก็แปลงผลคูณ (จากข้อมูลที่เป็นอิสระต่อกัน) เป็นผลรวมที่จัดการได้ง่าย

โปรแกรมการเพิ่มประสิทธิภาพแบบ MLE (7.1)

เราจัดรูปแบบการประมาณเป็นโปรแกรมเชิงคณิตศาสตร์:

$$\begin{array}{ll} \text{เพิ่มค่าสูงสุด} & l(x) = \log p_x(y) \\ \text{ภายใต้เงื่อนไข} & x \in C \end{array}$$ (7.1)

โปรแกรมนี้คือ ปัญหาการเพิ่มประสิทธิภาพเชิงเว้า หาก:

ฟังก์ชันความน่าจะเป็นลอการิธึม $l$ เป็น เว้า สำหรับแต่ละค่าของ $y$
เซตที่เป็นไปได้ $C$ (ข้อมูลเบื้องต้น) ถูกอธิบายโดยข้อจำกัดแบบสมการเชิงเส้นและข้อจำกัดเชิงเว้าแบบไม่เท่ากัน

การรวมข้อจำกัดและข้อมูลเบื้องต้น

การประมาณค่าแบบ ML ต้องกำหนดใหม่ว่า $p_x(y) = 0$ เมื่อ $x \notin C$ เพื่อจำกัดข้อจำกัดทางกายภาพหรือข้อมูลเบื้องต้นอย่างชัดเจน ในพื้นที่การเพิ่มประสิทธิภาพ หมายความว่าฟังก์ชันความน่าจะเป็นลอการิธึมจะถูกกำหนดค่าเป็น $-\infty$ สำหรับพารามิเตอร์ $x$ ที่ขัดแย้งกับข้อจำกัดเหล่านั้น ซึ่งสร้างกำแพงที่ไม่สามารถผ่านได้สำหรับตัวดำเนินการเพิ่มประสิทธิภาพ

หลักการสำคัญ

การเปลี่ยนจาก "การประมาณค่าสูงสุดของความน่าจะเป็น" เป็น "โปรแกรมเชิงเว้า" ขึ้นอยู่กับความเว้าของฟังก์ชันความหนาแน่นลอการิธึม หากเสียงรบกวนหรือการแจกแจงเป็นแบบลอการิธึมเว้า งานการประมาณทางสถิติจะกลายเป็นปัญหาการเพิ่มประสิทธิภาพที่สามารถแก้ได้ทั่วโลก

คำถามที่ 1

ทำไมฟังก์ชันความน่าจะเป็นลอการิธึม $l(x)$ ถึงได้รับความนิยมมากกว่าฟังก์ชันความน่าจะเป็น $p_x(y)$ ในการเพิ่มประสิทธิภาพ?

มันเปลี่ยนตำแหน่งของค่าสูงสุดไปยังจุดที่มีเสถียรภาพมากขึ้น

มันเป็นฟังก์ชันที่เพิ่มขึ้นอย่างต่อเนื่อง ซึ่งเปลี่ยนผลคูณให้กลายเป็นผลรวม

มันรับประกันว่าปัญหานี้เป็นเชิงเส้นเสมอ

มันกำจัดความจำเป็นในการมีข้อจำกัด

คำถามที่ 2

ภายใต้เงื่อนไขใด ปัญหาการประมาณค่าสูงสุดของความน่าจะเป็น (7.1) ถือว่าเป็นปัญหาการเพิ่มประสิทธิภาพเชิงเว้า?

เมื่อ $p_x(y)$ เป็นฟังก์ชันเชิงเส้นของ $x$

เมื่อ $l(x)$ เป็นเว้า และ $C$ เป็นเซตใดก็ตาม

เมื่อ $l(x)$ เป็นเว้า และ $C$ ถูกกำหนดโดยสมการเชิงเส้นและอสมการเชิงเว้า

เฉพาะเมื่อเสียงรบกวนเป็นแบบเกาส์เซียน

คำถามที่ 3

หากพารามิเตอร์ $x$ ขัดแย้งกับข้อจำกัดเบื้องต้น ($x \notin C$) ค่าใดจะถูกกำหนดให้กับฟังก์ชันความน่าจะเป็นลอการิธึม?

$+\infty$

$-\infty$

คำถามที่ 4

จริงหรือเท็จ: การประมาณค่าสูงสุดของความน่าจะเป็น (MLE) สำหรับความหนาแน่นแบบลอการิธึมเว้าที่มีข้อจำกัดเชิงเว้า จะมีค่าสูงสุดทั่วโลกที่ไม่ซ้ำกันเสมอไป หากมีอยู่

จริง

เท็จ

คำถามที่ 5

พิจารณาการแจกแจงเอ็กซ์โพเนนเชียลที่มีพารามิเตอร์ $\lambda$ หากเรารู้ว่า $\lambda \ge 5$ แต่ข้อมูลบ่งชี้ว่า $\lambda = 2$ แล้วค่าประมาณการสูงสุดที่มีข้อจำกัดจะอยู่ที่ไหน?

ที่ $\lambda = 2$

ที่ $\lambda = 5$

ปัญหานี้ไม่มีคำตอบ

ที่ $\lambda = 0$

ท้าทาย: MLE และการประมาณค่าตามนอร์ม

การจัดรูปเสียงรบกวนทางสถิติเป็นฟังก์ชันปรับโทษ

ลองจินตนาการโมเดลการวัดเชิงเส้น $y = Ax + v$ โดยที่เสียงรบกวน $v$ ปฏิบัติตามการแจกแจงลาปลาซีอัน: $p(z) = \frac{1}{2a}e^{-|z|/a}$ เราต้องการหาค่าประมาณการแบบสูงสุดของเวกเตอร์พารามิเตอร์ $x$

คำถามที่ 1

นำเสนอลำดับฟังก์ชันความน่าจะเป็นลอการิธึม $l(x)$ สำหรับการวัด $m$ ครั้งที่เป็นอิสระต่อกัน

คำอธิบาย:
ความน่าจะเป็นคือผลคูณของความหนาแน่น: $\prod p(y_i - a_i^T x)$
นำลอการิธึมมาใช้: $l(x) = \sum_{i=1}^m \log(\frac{1}{2a} e^{-|y_i - a_i^T x|/a}) = m \log(\frac{1}{2a}) - \frac{1}{a} \sum_{i=1}^m |y_i - a_i^T x|$

คำถามที่ 2

แสดงว่าการเพิ่มค่าสูงสุดของ $l(x)$ นี้เทียบเท่ากับปัญหาการประมาณค่าตามนอร์มมาตรฐาน นอร์มใดที่ถูกลดลง?

คำอธิบาย:
การเพิ่มค่าสูงสุดของ $m \log(\frac{1}{2a}) - \frac{1}{a} \|Ax - y\|_1$ เทียบเท่ากับ การลดค่า $\ell_1$-นอร์ม: $\|Ax - y\|_1$ แตกต่างจากเสียงรบกวนแบบเกาส์เซียน (ซึ่งนำไปสู่การประมาณแบบกำลังสอง/ $\ell_2$) ที่เสียงรบกวนลาปลาซีอันนำไปสู่การประมาณแบบแข็งแรงของ $\ell_1$